语音细分将长言语分为短段,对于语音翻译(ST)至关重要。像WebRTC VAD这样的流行VAD工具通常依赖于基于暂停的细分。不幸的是,语音中的暂停不一定与句子边界匹配,句子可以通过很短的停顿连接,而VAD很难检测到。在这项研究中,我们建议使用使用分割的双语语音语料库训练的二元分类模型进行语音分割方法。我们还提出了一种结合VAD和上述语音分割方法的混合方法。实验结果表明,所提出的方法比常规分割方法更适合级联和端到端ST系统。混合方法进一步改善了翻译性能。
translated by 谷歌翻译